بازیابی بر اساس محتوای اسناد چاپی فارسی

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی
  • نویسنده زهرا بهمنی کوخدان
  • استاد راهنما رضا عزمی
  • تعداد صفحات: ۱۵ صفحه ی اول
  • سال انتشار 1390
چکیده

با افزایش کتابخانه های دیجیتال و برای برای دستیابی به هدف ادارات بدون کاغذ تعداد زیادی از کپی ها به دیجیتال تبدیل شده و در سیستم مدیریت اسناد ذخیره شده است. همچنین در حال حاضر میلیون ها سند دیجیتال دائماً بر روی اینترنت از یک نقطه به نقطه ی دیگر منتقل می شوند. اگر چه تکنولوژی پردازش تصویر اسناد می تواند برای تبدیل اتوماتیک تصاویر دیجیتال این اسناد به فرمت متن قابل خواندن به وسیله کامپیوتر با استفاده از بازشناسی کارکتر نوری استفاده شود ولی این روش برای حجم عظیمی از اسناد بهینه و کارا نیست. با توجه به این شرایط یافتن راه حل بازیابی اسناد پرینت شده به روشی که نیاز به برگرداندن این اسناد به نسخه ی متنی نداشته باشد ضروری به نظر می آید. روش های بازیابی و بازشناسی به دو دسته اصلی تقسیم می شوند. دسته اول بازیابی را بر اساس توصیف شکل کلی کلمات یا زیرکلمات انجام می دهند. دسته دوم کلمه را به حروف می شکنند و از هر تصویر حرف ویژگی استخراج می کنند. در روشهای مبتنی بر جداسازی علاوه بر مشکلاتی مانند وجود نقاط و علائم و تنوع قلمها، مشکل جداسازی حروف نیز وجود دارد. در این پژوهش ما از روشی برای استخراج ویژگی های کلمات استفاده کرده ایم که نیاز به تخمین نقاط جداسازی ندارد. برای این منظور از شناسایی اتصال دهنده های عناصر اصلی حروف استفاده شده است. با شناسایی این اتصال دهنده ها و حذف آنها عناصر اصلی که در این پژوهش با نام زیرحروف نامگذاری شده اند استخراج شده است. در این پژوهش از سه روش زیر برای تشخیص زیرحروف استفاده شده است. در روش اول زیرحروف با استفاده از درخت تصمیم و به کمک ویژگی های شکلی زیرحروف مانند ارتفاع، عرض، حفره ها، گودال ها، دره ها، فرورفتگی ها و موقعیت عنصر نسبت به خط زیمینه تشخیص داده شده اند. دقت تشخیص در این روش برای زیرحروف بین 80 نا 100 در صد بوده است. در روش دوم از ترکیبی از درخت تصمیم نخ کشی شده و شبکه عصبی rbf برای تشخیص زیرحروف استفاده شده است. در این روش علاوه بر ویژگی های شکلی کلمه، ویژگی نمایه ها در چهار جهت بکار برده شده است. نتایج روش دوم برای زیرحروف بین 90 تا 100 ارزیابی شده است. سومین روش مورد استفاده شبکه عصبی چند سطحی می باشد. در این روش تشخیص تنها به وسیله ویژگی نمایه ها و در سه تا چهار سطح و با استفاده از شبکه عصبی انجام شده است. تشخیص در این روش برای اغلب زیرحرف ها بالای 95 درصد بوده است. در نهایت با کد کردن زیرحروف، زیرکلمات و کلمات موجود در تصویر سند کد شده و برای بازیابی کلمات کلیدی مورد نظر کاربر استفاده شده است. دقت سیستم برای کلمات با طول متغییر به طور متوسط بالای 90 درصد ارزیابی شده است.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

طراحی و پیاده‌سازی یک سیستم بازیابی اسناد چاپی فارسی

هدف: معرفی، دسته‌بندی، و نقد پژوهش‌‌ها دربارۀ سیستم‌های بازشناسی و بازیابی اسناد چاپی فارسی و پیشنهاد یک سیستم بازیابی اسناد چاپی با رویکردی نو. روش‌شناسی: شیوه‌ای جدید با رویکرد جداسازی، طراحی و سپس پیاده‌سازی شده است. برای آموزش و آزمایش سیستم، پایگاه داده‌ای شامل تصویر 50 صفحه متن فارسی در 5 قلم مختلف فراهم آمد. از نیمی از این داده‌ها برای آموزش و نیمی...

متن کامل

بازیابی متون چاپی فارسی بر اساس پرس و جوی کلمات

در این پایان نامه روشی جدید برای بازیابی و جستجوی کلمات فارسی از میان متون تصویری فارسی ارائه شده است. همچنین روشی مبتنی بر اندازه و شکل نقاط موجود در مستند پس از آستانه گذاری، جهت تشخیص قلم و اندازه قلم مستندات تصویری فارسی ارائه شده است. روش ارائه شده برای تشخیص قلم از اولین روش هایی می باشد که می تواند با دقت بسیار بالایی اندازه قلم مستند فارسی را هم تشخیص دهد. برای ارزیابی روشهای ارائه شده ...

15 صفحه اول

بازیابی بر اساس محتوای تصاویر درموسکوپی

در این پایان نامه، رویکردی سلسله مراتبی برای بازیابی بر اساس محتوای(cbir) تصاویر درموسکوپی با هدف کمک به تشخیص بیماری در درماتولوژی کلینیکی پیشنهاد می شود. در روش های معمول cbir، سنجش شباهت تنها با محاسبه فاصله بردارهای ویژگی تصاویر مجموعه داده صورت می گیرد. در نتیجه، فاصله معنایی چالش بزرگی در عملکرد بازیابی ایجاد می کند. از این رو، در این تحقیق زیرمجموعه های ویژگی مختلف و یک رویکرد سلسله مرات...

15 صفحه اول

بازیابی مستندات تایپی فارسی بر اساس جستجوی کلمه کلیدی

بر خلاف پیشرفت در مخابرات الکترونیکی، بسیاری از اسناد هنوز در شکل کاغذ فرستاده و دریافت می شوند که به دلیل اهمیت حقوقی آن ها باید آرشیو شوند. مدیریت حجم عظیم این اسناد، شرکت های بزرگ را نیازمند به اپراتورها و نیروهای انسانی کرده است تا این اسناد را چک و دسته بندی نمایند یا ممکن است لازم شود مکاتبه ها بر اساس محتوا دسته بندی شوند. هدف ما در این پایان نامه بازیابی مستندات تایپی فارسی بر اساس جستج...

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023